新时期银行非结构化数据治理与应用思考
The following article is from 金融科技实战 Author 冷然希音
一、引言
数字化正在成为经济金融发展新的重要引擎,推动商业银行信息技术、业务发展、管理模式等加速转型升级。数据是数字化转型过程中的基础要素,提高数据管理与治理能力,实现“安全用数、高效用数、用优质数”,才能更好的支持数据创新应用,实现数据价值,推动商业银行的数字化转型。
2018年5月,中国银行保险监督管理委员会发布《银行业金融机构数据治理指引》,用以指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力。指引对金融机构的要求包括数据治理、数据管理、数据质量控制、数据价值实现和监督管理等各方面,强调数据治理体系的搭建,将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。此外,指引更强调通过数据治理来实现数据价值,这不仅包括利用传统计量模型制定管理策略,提升管理体系的有效性,还应当运用大数据技术,实现业务创新、产品创新和服务创新。
针对文本、语音等非结构化数据进行挖掘,从而在营销或运营等场景中提供智能化决策支持,成为银行数字化转型过程中的热门话题。在这个过程中,面向非结构化数据的数据治理与数据应用必须双管齐下,数据应用建设直接促进数据价值的发挥,数据治理能够影响数据价值挖掘的潜力上限。本文分析了非结构化数据治理方法,并详细阐述了银行中的关键应用场景,最后通过电销和商户分析两个案例说明了非结构化数据的实际应用价值。
二、非结构化数据治理方法
对于大部分金融机构而言,非结构化数据已经占到银行信息的80%或更高比例,是银行非常宝贵的数据资产。这部分数据的存储并不统一,而是分散的存储在很多地方,并且数据具有非常快的增长速度,但是它又包含许多非常重要的信息,这些信息对于提升客户分析非常有帮助。而大多金融机构现有的数据范围和规模不足以满足当前分析决策的需要,需要结合非结构化数据治理,实现对数据的全面获取、集成治理、分析应用,构建新型数据中心,为后续分析提供支持。下面简要阐述对于金融机构来说,怎样通过内容管理实现非结构化数据治理。
内容管理首先是要明确企业内容管理的范围,定义并维护企业信息内容架构,简单来讲,就是整合内容管理范围内的信息并将其通过分类体系进行类别划分。其次,一旦信息按照关键词标记并且按照适当的信息内容架构分类,就可以利用索引技术或全文检索技术建立非结构化数据的检索。最后搭建内容管理系统,将不同环境中的结构数据和非结构化数据有机的结合起来加以利用,提供一体化的信息集成服务,进而从中获取大量有价值的信息,更好的发挥大数据的优势。此外,对于内容管理系统还应经常定期进行维护,安排数据管理专员、数据管理专业人员以及档案经理相互协作,考虑与结构化数据治理相类似的动态因素。
由于非结构化数据中含有大量的客户敏感信息,因此做好数据的隐私与安全管理也是金融机构面临的一大难题。对于数据的隐私与安全管理,首先要充分理解数据安全需求及监管需求,定义数据安全策略、安全标准和安全控制及措施;其次要管理用户、密码和用户组成员,管理数据访问视图和权限;重点监控用户身份认证与访问行为,重点关注客户信息的安全性,建立问责机制;最后要做好数据安全工具的选取、使用和维护。
非结构化数据治理是为了消除信息孤岛,提高数据质量,共享信息资源,更好的探索大数据背景下的数据应用。大数据下的数据应用,离不开相应的场景,接下来我们给出非结构化数据的两个创新应用场景。
三、非结构化数据创新应用场景
银行数据不仅包含结构化数据,还包含非结构化的语音、文本数据。常见的文本数据有投诉工单、法律合同和交易描述,语音数据包括催收语音、客服语音和其他电销语音等。随着自然语言处理、文本挖掘等技术的日趋成熟,越来越多的银行开始重视非结构化数据所带来的实现价值。
1.电销客户价值分析
语音文本数据最初用于智能质检,现在逐步转向智能化分析,一方面是期望从中得到关于客户的各维度信息,如客户对外呼方式的接受度、对产品的偏好以及潜在需求点等,用于完善客户画像和提高营销响应率;另一方面是从客服角度出发,结合客户反馈信息,上线差异化话术,进而提升服务质量和外呼成功率。对于语音数据的分析来讲,前期数据转译质量是关键,后续分析时候需要不断对转译模型的参数进行调节。
▸ 期数偏好分析
期数偏好分析是从产品角度出发,挖掘客户在对话过程中提到的有关期数、费率、同业等信息,综合判断客户对于目前产品的接受程度和敏感度。结合客户之前的属性标签和交易情况,将客户关注的信息补充进来,优化在线营销产品,进一步匹配客户对产品端的需求。
▸ 客户情感分析
情感分析主要用于评论数据,如淘宝评价、豆瓣电影、和微博数据等的分析,传统上来讲有两种基本方法,一是根据情感词计算情感得分,然后根据得分进行划分;二是利用深度学习方法,首先将文本数据向量化,然后利用CNN、RNN等进行分析。对于电销数据,由于存在大量中性词语和角色误分现象,仅依靠情感词得分来计算会存在一些问题,首先是情感词的筛选,会耗费大量的人力成本,其次计算出得分以后的划分也会存在争议。如果采用第二种方法,神经网络设计和参数调优需要不断进行尝试,如果仅仅前期探索可以试一下机器学习方法,类似SVM、决策树等。
▸ 客户意图识别
客户意图识别是通过客户已有标签信息,结合客户当前信息推测客户下一步的意图。意图识别在做法上面和情感分析比较近,归结到自然语言处理层面属于文本分类问题,一般做法是前期需要人工辅助标注文本用于模型训练,后期采用机器学习或者深度学习模型进行文本分类。除此之外,稍微复杂一点的意图识别会涉及多轮语义交互问题,类似智能问答系统,目前市场上大部分是采取类似分类问题进行处理。
2.商户数据应用
银行在于第三方生活服务商户合作时,产生了大量的商户数据。商户数据的研究与应用对实现主动触达目标客户、提升商户合作效率、量化商户权益活动等有重要作用。
▸ 构建客户消费行为画像
客户使用银行卡(信用卡)进行交易,系统中会存有该交易记录描述,根据用户消费商户的偏好,结合商户所属行业信息,构建客户消费偏好标签。但是这种方式存在一定问题,主要是由于商户所属行业划分不准确导致。目前银行商户所属行业信息仅靠银联提供的MCC码划分,由于MCC码本身不完全准确并且粒度较粗,不能满足业务发展需要,因此在构建客户消费行为画像之前应对MCC码进行准确性和粒度细分性两方面的修正。
除了上述根据客户消费记录得到的静态客户消费偏好以外,还可以结合客户年龄信息,构建客户成长动态标签体系,真正实现客户生命周期管理。
▸ 基于商圈的事件式营销
商圈营销中的商圈可以是基于地理位置数据的真实商圈,也可以是根据客户消费活跃的商户位置划定的虚拟商圈。基于地理位置的商圈营销是通过银行第三方商户地理位置数据,划定商圈区域,优化整合商圈活动,建设优惠活动可视化地图,探索标准化商圈营销流程。基于消费活跃的商户位置划定的虚拟商圈是指根据客户在不同商户交易时间间隔来区分,如果间隔时间较短,那么这两个商户应该属于同一个商圈。建立商圈以后,一旦客户进入特定商圈,有一笔触发交易后,可以基于客户偏好标签为客户智能推荐定制化商户优惠信息,使得客户用卡更便捷、直观。
▸ 客户交易行为轨迹分析
根据客户以往大量的交易数据,可以对其交易行为进行轨迹分析。一般来说,客户的交易记录具有一定的周期性,银行可以通过挖掘用户周期交易的需求,及时推荐关联产品或附近的优惠活动,提升客户用卡体验。还可以根据客户跨地域性交易记录,与分行展开联动营销,针对不同地域特色,推荐当地酒店、美食、旅游等优惠活动。
四、电销分析参考案例
我们在上一小节给出了两个创新应用思路,一个是电销数据分析,一个是商户数据应用,二者都可以归结到文本数据分析。接下来我们主要以信用卡账单分期数据给出电销数据分析的部分案例参考,我们使用的数据是1128个账单分期录音转译的文本数据。
1.期数偏好分析
转译文本数据的预处理部分相对容易,依次是分词、词性标注、停用词和常见词处理,市面上开源软件Python、R都可以进行处理。我们分别统计客服和客户提到的期数的出现频次,作图如下,从图中可以看出客服更倾向于推荐长期产品,为了更直观说明,我们下面进行客户最后选择期数和客服首荐期数分析。
利用关键词匹配可以得到客服第一次提到的期数和客户最后一次提到的期数,可以将其默认为客服首荐期数和客户最后选择期数,分析结果见下图。从图中可以看出相较于客服喜欢推荐的长期产品,客户更倾向于“三期”、“六期”、“十二期”产品。
2、同业比较分析
信用卡中心在进行电话营销之前,是通过模型做过相应客户筛选,一般客户是在进行大笔消费以后会短信或者通过APP进行提示,模型筛选出的客户是进行电销的相对优质客户,这些客户可能之前对分期比较了解,也很有可能不止有一张信用卡,所以这些客户很有可能对费率比较敏感,在通话过程中会存在同业比较现象,按照“文档名|信息|他行|费率对比”输出格式对所有文本进行信息抽取。
首先先定位提到“费率”的文档,利用正则化对文档信息进行抽取,查看客户容易进行对比的其他行,然后对我们行的产品进行重新优化。我们利用正则匹配的方法给出了相对简单的期数偏好分析和同业分析,并未涉及自然语言处理中很深入的方法,但是后续的客户情感分析以及客户意图识别不仅需要标注部分数据还涉及分类模型和模型调优,这也是后期我们重点分析的方向。
五、总结
本文我们主要给出了银行数字化转型背景下,非结构化数据治理和应用的一些思路和建议。非结构化数据治理主要是依托于内容管理,实现数据的全面获取、集成治理,构建新型数据中心,为数据应用提供支持。非结构化数据应用我们主要给出了电销数据和商户数据应用场景,并结合现有数据和实现难易程度给出了电销数据的案例参考。总体来讲,银行要进一步深化数据治理机制的建立和运转,在确保数据可用、可信、安全的基础上积极探索数据在营销、渠道、客户等诸多领域的潜在智能化的应用,能够帮助银行进一步实现数字化转型。
参考文献
【1】银行中长期发展战略(2018-2027)
【2】银行业金融机构数据治理指引,中国银行保险监督管理委员会,2018
【3】THOMAS G.The DGI Data Governance Framework[J].The Data Governance Institute,2006.
【4】DAMA INTERNATIONAL.The DAMA Guide to the Data Management Body of Knowledge[M].2009.
【5】INSTITUTE C.Data Management Maturity(DMM) Model V1.0[M].August 2014.
来源|金融科技实战
作者|冷然希音
更多精彩,戳这里: